﻿<html>
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <title>VietOCR.NET - .NET GUI Frontend for Tesseract OCR</title>
    <style type="text/css">
        .style1
        {
            font-size: x-small;
        }
    </style>
</head>
<body">
    <div>
        <h2 align="center">
            VietOCR.NET</h2>
        <h3>
            POPIS</h3>
        <p>
            <a href="http://sourceforge.net/project/showfiles.php?group_id=153105">VietOCR.NET</a>
            je .NET rozhranie pre <a href="http://code.google.com/p/tesseract-ocr/">Tesseract OCR
                systém</a>, poskytujúci podporu rozoznávania znakov pre bežné formáty obrázkov
            a viacstranové obrázky. Program obsahuje funkciu post-spracovanie, ktorá pomáha
            pri opravovaní chýb, ktoré sa pravidelne objavujú pri OCR procese a tak sa zvyšuje
            miera presnosti výsledku. Program je tiež možné použiť ako konzolovú aplikáciu,
            ktorú je možné spustiť z príkazového riadku.</p>
        <p>
            Podporované je aj dávkové spracovanie. Program monitoruje nové obrázkové súbory
            v sledovanom priečinku a automaticky ich spracuje pomocou OCR systému a výstup uloží
            do výstupného priečinka.</p>
        <h3>
            SYSTÉMOVÉ POŽIADAVKY</h3>
        <p>
            <a href="http://www.microsoft.com/downloads/details.aspx?familyid=5B2C0358-915B-4EB5-9B1D-10E506DA9D0F&displaylang=en">
                Microsoft .NET Framework 2.0 Redistributable</a>.</p>
        <p>
            Ak sa stretnete s chybovou správou FileLoadException &quot;<i>Could not load file or
                assembly &#39;tesseract, Version=1.0.0.0, Culture=neutral, PublicKeyToken=null&#39;
                or one of its dependencies. This application has failed to start because the application
                configuration is incorrect. Reinstalling the application may fix this problem. (Exception
                from HRESULT: 0x800736B1)</i>&quot; pri behu VietOCR.NET, nainštalujte si balík
            Microsoft Visual C++ 2008 SP1 Redistributable (<a href="http://www.microsoft.com/downloads/details.aspx?FamilyID=a5c84275-3b97-4ab7-a40d-3802b2af5fc2&displaylang=en">x86</a>,
            <a href="http://www.microsoft.com/downloads/details.aspx?familyid=BA9257CA-337F-4B40-8C14-157CFDFFEE4E&displaylang=en">
                x64</a>).</p>
        <h3>
            INŠTALÁCIA</h3>
        <p>
            Ak nemáte práva na inštalovanie do priečinku <tt>C:\Program Files</tt>, môžete vybrať
            aj iný inštalačný priečinok pri inštalácií.</p>
        <p>
            Podpora skenovania je zabezpečená cez knižnicu Windows Image Acquisition Library
            v2.0, ktorý vyžaduje Windows XP Service Pack 1 (SP1) alebo vyšší; Knižnica je integrovaný vo Windows Vista a 7. WIA knižnicu môže
            nainštalovať skopírovaním <tt>wiaaut.dll</tt> súboru do vášho adresára <tt>System32</tt>
            (zvyčajne je umiestnený v <tt>C:\Windows\System32</tt>) a spustite v príkazovom
            riadku:</p>
        <blockquote>
            <p>
                <tt>regsvr32 C:\Windows\System32\wiaaut.dll</tt></p>
        </blockquote>
        <p>
            PDF podpora je dostupná cez projekt <a href="http://sourceforge.net/projects/ghostscript/">
                GPL Ghostscript</a>. Po jeho inštalácií sa prosím uistite, že zdielaná knižnica
            (<tt>gsdll32.dll</tt> alebo <tt>libgs.so</tt>) je v ceste (PATH), prípadne nastavte
            patričnú premennú prostredia. Vo Windows, pridajte nasledovný reťazec hodnote <tt>Path</tt>
            (prístupná je cez Kontrolný panel &gt; Systém &gt; Pokročilé nastavenia &gt; Premenné
            prostredia) pre GS verzie 9.10:</p>
        <blockquote>
            <p>
                <tt>;C:\Program Files\gs\gs9.10\bin</tt></p>
        </blockquote>
        <p>
            Kontrola preklepov (spellcheck) je dostupná cez projekt Hunspell, ktorého <a href="http://wiki.services.openoffice.org/wiki/Dictionaries">
                slovníkové</a> súbory <tt>.aff</tt>, <tt>.dic</tt>) by mali byť umiestnené v
            <tt>dict</tt> priečinku VietOCR. <tt>user.dic</tt> je súbor kódovaný v UTF-8-encoded,
            ktorý obsahuje zoznam vlastných slov - jedno slovo na riadok.</p>
        <h3>
            INŠTRUKCIE</h3>
        <p>
            <a href="http://code.google.com/p/tesseract-ocr/downloads/list">Jazykové dátové balíčky</a>
            pre Tesseract-ocr by mali byť dekomprimované do inštalačného priečinku programu
            <tt>tesseract</tt>; dátové súbory, ktorých názvy začínajú ISO639-3 kódmi majú byť
            umiestnené do <tt>tessdata</tt> podadresára. VietOCR tiež poskytuje podporu pre
            sťahovanie a inštaláciu zvolených jazykových balíkov cez menu položku <em>Stiahnuť jazykové
                dáta</em>. V závislosti od umiestnenia adresára <tt>tessdata</tt> možno budú
            požadované administrátorské práva pri inštalácií stiahnutých dát, ak sa tento adresár
            nachádza v systémovom adresári, ako je napr. <tt>C:\Program Files</tt>.</p>
        <p>
            Obrázky určené na OCR by mali byť skenované v rozlíšení aspoň 200 DPI (dot per inch)
            až 400 DPI v monochromatickom (čierno&amp;bielom) režime alebo v odtieňoch šedej.
            Skenovanie vo vyššom rozlíšení neprináša vyššiu presnosť pri rozoznávaní znakov.
            Miera presnosti však závisí hlavne na kvalite naskenovaného obrázka. Typické nastavenie
            pre skenovanie je 300 DPI a 1 bpp (bit per pixel) čierno-bielo alebo 8 bpp (odtiene
            šedej) do nekomprimovaného TIFF alebo PNG formátu.</p>
        <p>
            Nový <em>Režim snímky obrazovky</em> ponúka lepšiu mieru presnosti pre obrázky s
            nízkym rozlíšením ako napr. snímky obrazovky, pomocou zväčšenia rozlíšenia na 300
            DPI.</p>
        <p>
            Okrem vstavaného algoritmu pre post-spracovania textu, môžete si pridať vlastnú
            schému nahradzovania textu textový súbor s názvom <tt>x.DangAmbigs.txt</tt>, kde
            x je ISO639-3 kód jazyka. Tento súbor v UTF-8 kódovaní by mal obsahovať páry oddelené
            znakom „rovná sa“ v tvare <tt>staráHodnota=nováHodnota</tt>.</p>
        <p>
            Niektoré vstavané nástroje poskytujú funkcie spájania niekoľkých obrázkov alebo
            PDF súborov do jedného (pre pohodlnejšie rozoznávanie znakov), alebo delenie PDF
            súborov na menšie, ak sú príliš veľké a spôsobujú „out-of-memory exceptions“.</p>
        <h3>
            POST-SPRACOVANIE</h3>
        <p>
            Chyby pri rozoznávaní znakov sa dajú rozdeliť do troch kategórií. Časté sú zámeny
            veľkosti písmen napr. „O“ — „o“, „Z“ — „z“, „S“ — „s“. Tieto chyby sa dajú opraviť
            pomocou populárnych Unicode textových editorov.</p>
        <p>
            Ďalšie chyby sú spôsobené OCR procesom - napríklad chýbajúce diakritické znamienka,
            zamenené znaky („1“ — „l“). Takéto chyby je možné pomerne ľahko opraviť pomocou
            kontroly preklepov (spellechecker). Vstavané funkcie pre post-spracovanie vám môžu
            pomôcť s vyššie uvedeným chybami.</p>
        <p>
            Poslednou kategóriou sú chyby, ktoré je ťažké detegovať, pretože sú to sémantické
            chyby, čo znamená, že dané slová sa nachádzajú v slovníku, ale sú chybné z hľadiska
            kontextu napr. „súd“ — „sud“ a pod. Tieto chyby si vyžadujú, aby ich opravil korektor
            manuálne podľa originálneho obrázka.</p>
        <p>
            Tu sú inštrukcie, ako opraviť prvé dve kategórie OCR chýb s pomocou zabudovanej
            funkcie:</p>
        <ol style='margin-top: 0in' start="1" type="1">
            <li>Zoskupenie riadkov. Riadky je potrebné zoskupiť tak, aby zodpovedali odsekom, ku
                ktorým patria (1 odsek = 1 riadok). Použite na to funkciu <i>Odstrániť zalomenia riadkov</i>,
                ktorá sa nachádza v menu <i>Formát</i>. Takáto operácia nie je potrebná pre básne.</li>
            <li>Vyberte <i>Zmeniť veľkosť písmen</i>, z ponuky <i>Formát</i>, a potom <i>Prvé veľké</i>
                na opravu chýb veľkosti písmen. Následne opravte ostatné chyby veľkosti písmen (napr.
                mená, názvy).</li>
            <li>Opravte preklepy s použitím <i>Kontrola preklepov</i>.</li>
        </ol>
        <p>
            Vyššie uvedené kroky by mali eliminovať väčšinu bežných chýb. Zostávajúce sémantické
            chyby však musí opraviť ľudský editor pozorným čítaním a korigovaním, aby bol výsledný
            dokument bez chýb.</p>
        <p>
            Ak máte nejaké otázky, položte ich na <a href="http://sourceforge.net/projects/vietocr/forums">
                VietOCR fórum</a>.</p>
        <hr />
    </div>
</body>
</html>
